# Aviso: Essas notas de aula são exclusivas para uso como guia do curso
# porém não substituem as referências e materiais de apoio. 
# Quaisquer erros são de responsabilidade do autor. 
# Esse material é protegido por ser propriedade intelectual.
# Logo, ao reproduzir, divulgar ou distribuir notifique a autoria.

# Caso encontre erros, contate os autores imediatamente. 
# Via e-mail ryallmeida@gmail.com
# CODADO ORIGINALMENTE EM R, V. 4.5.2

Prefácio

Sobre a apostila

Esta é uma Apostila dos códigos e suas respectivas notas utilizadas nas monitorias do curso de “Métodos Quantitativos II” ofertado pelo Departamento de Ciência Política da Universidade Federal de Pernambuco. Estas notas e considerações foram tecidas monitor Ryan Almeida balisando seu horizonte de conhecimento em Estatística, Análise de Dados e Metódos Quantitativos em Ciência Política.

Aqui começamos um pouco para além da base. Já vimos em outros cursos como se munir da estatística descritiva para descrever o comportamento dos dados, como formular um problema investigativo, construir uma hipótese sólida, escolher variáveis relevantes ancorada em uma teoria consistente. Agora a proposta é mostrar, passo a passo, como estruturar o raciocínio científico interseccionando a Ciência Política com a estatistica inferencial.

Aqui, a questão central é: Como lidar com a incerteza? Como interpretar distribuições de probabilidade? Como aplicar intervalos de confiança e testes de hipótese para validar resultados? E se o objetivo for compreender relações entre variáveis, o curso oferece ferramentas fundamentais: desde medidas de associação e análise de variância (ANOVA) até os modelos de correlação e regressões.

Em síntese, este curso articula duas dimensões inseparáveis: a tentativa de reflexão teórica da Ciência Política e o rigor metodológico da Estatística. A proposta é ajudar a formar politólogos com um olhar crítico, mas também técnico, capaz de transformar problemas políticos e adjacentes em pesquisas consistentes de análises sólidas e reprodutíveis.

Sobre o autor

Ryan Almeida está graduando em Ciência Política com ênfase em Relações Internacionais pela Universidade Federal de Pernambuco (CFCH/UFPE) e, dentro da sua formação, realiza atividade de extensão, pesquisa e intervenção no Laboratório de Estudos da Sexualidade Humana (LabEshu/Dept. de Psicologia). Além disso, demonstra interesse nas áreas de métodos em Ciência Política e políticas públicas. Em virtude de sua atuação social, recebeu o Selo UNICEF (2021-2024) como Mobilizador de Adolescentes e Jovens, em reconhecimento às atividades desenvolvidas junto ao Núcleo de Cidadania dos Adolescentes (NUCA/UNICEF) de Arcoverde/PE.

Notas sobre à Regressão Linear propriamente dita

Este é um método para modelar o relacionamento entre duas ou mais variáveis e serve para prever a variável resposta (y) com base nos valores das variáveis preditoras (x), a fim de quantificar a força dessa relação.

A equação

\[ \hat{Y}_i = \hat{\beta}_0 + \sum_{j=1}^{k} \hat{\beta}_j X_{ji} + \varepsilon_i \]

representa um modelo de regressão linear múltipla e descreve como o valor estimado de uma variável dependente é explicado por um conjunto de variáveis independentes.

Em primeiro lugar, \(\hat{Y}_i\) indica o valor estimado da variável resposta para o indivíduo (ou observação) \(i\). Trata-se do resultado que o modelo prevê com base nas informações disponíveis, e não do valor observado diretamente nos dados. O uso do “chapéu” (^) sinaliza que se trata de uma estimativa produzida pelo modelo estatístico.

O termo \(\hat{\beta}_0\) é o intercepto da regressão. Ele representa o valor esperado de \(Y\) quando todas as variáveis explicativas \(X_{ji}\) assumem valor zero. Em termos substantivos, o intercepto pode ser interpretado como um ponto de referência ou condição basal, ainda que, em muitos contextos empíricos, essa situação (todas as variáveis iguais a zero) não seja realista. Mesmo assim, o intercepto é fundamental para posicionar corretamente a reta (ou hiperplano) de regressão.

O somatório

\[ \sum_{j=1}^{k} \hat{\beta}_j X_{ji} \]

expressa a contribuição conjunta das \(k\) variáveis independentes para explicar Y. Cada coeficiente \(\hat{\beta}_j\) indica o efeito médio associado à variável \(X_j\), mantendo todas as demais constantes. Em termos interpretativos, \(\hat{\beta}_j\) informa quanto se espera que \(\hat{Y}_i\) varie quando \(X_{ji}\) aumenta uma unidade, assumindo que as outras variáveis do modelo não se alterem. Assim, os coeficientes capturam relações parciais, e não efeitos brutos ou isolados.

O termo \(\varepsilon_i\) representa o erro aleatório ou resíduo associado à observação i. Ele corresponde à parcela de \(Y_i\) que não é explicada pelas variáveis incluídas no modelo. Em termos substantivos, o erro agrega fatores não observados, imprecisões de medida e variações aleatórias inevitáveis nos fenômenos sociais e empíricos.

Ao interpretar o resultado de uma regressão linear, o foco recai principalmente sobre os coeficientes \(\hat{\beta}_j\), seus sinais (positivos ou negativos), suas magnitudes e sua significância estatística. Um coeficiente positivo indica uma associação direta entre a variável explicativa e a variável dependente; um coeficiente negativo indica uma associação inversa. A significância estatística, por sua vez, informa se o efeito estimado é suficientemente distinto de zero para que não seja atribuído apenas ao acaso, dado um nível de confiança pré-estabelecido.

Além dos coeficientes individuais, a regressão deve ser interpretada de forma global, observando-se medidas de ajuste do modelo, como o \(R^2\), que indica a proporção da variância de (Y) explicada pelo conjunto das variáveis independentes. Em conjunto, esses elementos permitem avaliar tanto a força explicativa do modelo quanto a plausibilidade substantiva das relações estimadas.

Não esqueça: a violação dos pressupostos da regressão pode levar a estimativas enviesadas, erros-padrão incorretos, testes t e f inválidos, e conclusões estatísticas equivocadas. Pra sintetizar, ao estabelecer esse modelo pressupoe-se que a relação entre \(Y\) e \(x\) é linear, que a média do erro é nula, que o \(x\) varia, que para um dado valor de \(x\), a variância do erro \(\epsilon_i\) é sempre \(\sigma^2\), os erros são independentes e os erros seguem distribuição normal.


Pressuposto O que acontece se ele for violado? O que pode ser feito?
Linearidade Erro de especificação do modelo (forma funcional equivocada). Os coeficientes serão inconsistentes (enviesados e ineficientes). Adotar outra forma funcional. Transformar as variáveis.
Ausência de erro de mensuração Diversos problemas podem surgir, desde ineficiência até viés, a depender do tipo de erro (aleatório ou sistemático) e do local do erro (variável dependente e/ou independente). Usar modelos de equações estruturais. Estimar indicadores compostos (análise fatorial). Utilizar outras variáveis com maior nível de validade e confiabilidade.
A expectativa da média do termo de erro é igual a zero O intercepto do modelo será afetado. Procurar ajuda na literatura sobre o tema em questão com o objetivo de garantir que todas as variáveis teoricamente relevantes foram incluídas no modelo e que nenhuma variável irrelevante foi considerada.
Homocedasticidade Estimativas inconsistentes (ineficiência). Não poderemos confiar nos testes de significância. Utilizar correções estatísticas para melhorar a qualidade das estimativas.
Ausência de autocorrelação Inconsistência dos testes de significância (intervalos de confiança e p-valor serão prejudicados). Diferentes modalidades de autocorrelação exigem tratamentos distintos. No caso da autocorrelação serial, o mais adequado é utilizar modelos de séries temporais.
A variável independente não deve ser correlacionada com o termo de erro Estimativas inconsistentes (viés). Garantir correta especificação do modelo. Utilizar variáveis instrumentais.
Nenhuma variável teoricamente relevante para explicar Y foi deixada de fora do modelo e nenhuma variável irrelevante para explicar Y foi incluída no modelo (Correta Especificação) Estimativas inconsistentes. Viés e ineficiência. Pior cenário do mundo. Garantir correta especificação do modelo.
Ausência de multicolinearidade Inconsistência dos testes de significância (intervalos de confiança e p-valor serão prejudicados). Verificar a codificação e a transformação das variáveis. Aumentar o tamanho da amostra. Utilizar alguma técnica de redução de dados. Melhorar especificação do modelo.
Distribuição normal do termo de erro Estimativas inconsistentes. Depende da natureza do problema. Poderão ocorrer viés e/ou ineficiência. Aumentar o tamanho da amostra.
Proporção adequada entre casos e variáveis Ineficiência. Testes de significância serão muito instáveis. Quanto menor a amostra, pior. Aumentar a quantidade de observações. Melhorar a especificação do modelo. Reduzir a quantidade de variáveis independentes.


Ainda não entendeu? Então vamos lá. O conceito de regressão nasce lá com aquele autor que a gente vê no ensino médio chamado “Francis Galton (1822-1911) que era o primo de Charles Darwin e era altamente competente em medicina e matemática. Galton era fascinado pela biometria humana e herdabilidade dos caracteres humanos (aquela que bebe na genética), inventou a indentificação pela impressão digital, estudou dados de altura dos pais e filhos e funda a”Law Of Universal Regression”, para fizer que a altura dos filhos regrediam para a média, com a ajuda de Karl Pearson, ajustou a reta. Entretanto, não excluiu o fato de ser altamente racista.

Ao construirmos um modelo de regressão, que nada mais é do que uma “ponte” matemática entre o que sabemos (os dados) e o que queremos prever. Essa construção começa com uma escolha fundamental: a distribuição. Como a natureza não é perfeita, os dados sempre apresentam variações; por isso, decidimos se eles se comportam como uma curva Normal, ou se seguem padrões de contagem, como a distribuição de Poisson. É aqui que definimos a “personalidade” do erro no nosso modelo.

Uma vez escolhida a distribuição, precisamos decidir qual quantidade daquele fenômeno queremos prever. Geralmente, estamos interessados na média, mas modelos mais sofisticados podem focar em quantis ou na variância. É essa lógica que nos leva à equação central da imagem:

\[ Q (Y|x) = \eta(x, \theta) \] Nesta expressão, o lado esquerdo, \(Q(Y|x)\), representa exatamente essa quantidade que queremos descobrir (o “Y”) dado que conhecemos certas condições (o “x”). Para chegar a esse valor, utilizamos uma função, representada pela letra grega eta (\(\eta\)). Essa função é o desenho da nossa ponte: ela pode ser uma linha reta simples (linear) ou uma curva complexa (não linear), dependendo da biologia do problema.Dentro dessa função, combinamos as preditoras, que são as informações que você tem em mãos (como a temperatura ou a umidade do campo), com os parâmetros (\(\theta\)). Pense nos parâmetros como os “ajustes finos” da nossa máquina: eles podem ser apenas números que fazem a conta fechar (empíricos) ou podem representar algo real, como a taxa máxima de infecção de um fungo. Assim, ao unir a forma da função com os dados e os ajustes corretos, o modelo consegue nos dizer, com base no que já aconteceu, o que provavelmente acontecerá no futuro.

Métodos dos Mínimos Quadrados Ordinários

O Método dos Mínimos Quadrados Ordinários (MQO) é o fundamento matemático e estatístico que permite transformar um conjunto de dados observados em um modelo linear estimado. A sua importância decorre do fato de que ele fornece um critério claro, operacional e teoricamente justificado para escolher os coeficientes \(\beta_0, \beta_1, \ldots, \beta_k\) que melhor descrevem a relação entre as variáveis.

A primeira expressão

\[ \min_{\beta_0, \beta_1, \dots, \beta_k}\sum_{i=1}^{n}\left( Y_i - \beta_0 - \sum_{j=1}^{k} \beta_j X_{ji} \right)^2 \]

define o problema de otimização central do MQO. O que se busca é encontrar os valores dos parâmetros que minimizam a soma dos quadrados dos resíduos. O termo entre parênteses representa a diferença entre o valor observado \(Y_i\) e o valor ajustado pelo modelo linear. Ao elevar essa diferença ao quadrado, o método garante que erros positivos e negativos não se anulem e, ao mesmo tempo, penaliza erros grandes de forma mais severa do que erros pequenos. Assim, o MQO escolhe os coeficientes que produzem, no conjunto, o melhor ajuste médio possível aos dados.

A importância dessa minimização está no fato de que ela fornece uma regra objetiva para estimar os parâmetros. Não se trata de um ajuste visual ou arbitrário, mas de uma solução única (sob condições padrão) derivada de um critério matemático explícito. Em termos geométricos, o MQO projeta o vetor de valores observados (Y) sobre o espaço gerado pelas variáveis explicativas, garantindo que os resíduos sejam ortogonais a esse espaço. Isso confere ao modelo uma propriedade central: não há informação linear adicional nas variáveis explicativas que possa reduzir ainda mais os erros.

A segunda expressão

\[ \hat{\varepsilon}_i = Y_i - \hat{\beta}_0 - \sum_{j=1}^{k} \hat{\beta}_j X_{ji} \]

define o resíduo estimado para cada observação. O resíduo mede exatamente aquilo que o modelo não consegue explicar. A importância desse termo é dupla. Primeiro, ele permite avaliar a qualidade do ajuste, pois resíduos pequenos indicam que o modelo descreve bem os dados, enquanto resíduos grandes sugerem omissões, má especificação ou alta variabilidade não explicada. Segundo, os resíduos são a base para toda a inferência estatística associada à regressão: testes de hipóteses, intervalos de confiança e diagnósticos do modelo dependem diretamente do seu comportamento.

Do ponto de vista teórico, o MQO é especialmente importante porque, sob hipóteses relativamente fracas (linearidade, exogeneidade, variância constante e ausência de multicolinearidade perfeita), os estimadores obtidos possuem propriedades desejáveis. Eles são não viesados, consistentes e, pelo Teorema de Gauss–Markov, apresentam a menor variância possível entre todos os estimadores lineares não viesados. Isso significa que, dentro dessa classe, nenhum outro método produz estimativas mais precisas em média.

Além disso, o MQO cria uma ponte direta entre álgebra, geometria e estatística aplicada. Ele pode ser interpretado como um problema de minimização, como uma projeção em espaços vetoriais ou como um procedimento inferencial probabilístico.

Em síntese, a importância dos Mínimos Quadrados Ordinários reside em três aspectos centrais: ele fornece um critério matemático rigoroso para estimar coeficientes, permite quantificar sistematicamente o erro por meio dos resíduos e garante propriedades estatísticas ótimas sob condições bem definidas.

Onde no que segue a reta é o compornente deterministico, e a distância entre a reta e a observação é o componente aleatório.

Resíduos 3D

R-Squared Alto

R-Squared Baixo

R2 ~ 0

Estatísticas descritivas

Instale o pacote que segue

# CARREGANDO DADOS

dados <- WDI(
  country = "all",
  indicator = c(
    pib = "NY.GDP.PCAP.KD",
    vida = "SP.DYN.LE00.IN",
    desemprego = "SL.UEM.TOTL.ZS"
  ),
  start = 2000,
  end = 2020
)

# CORREÇÃO DE LEITURA DOS DADOS
dados$country <- as.factor(dados$country)
dados$iso2c <- as.factor(dados$iso2c)
dados$iso3c <- as.factor(dados$iso3c)

dados$year <- lubridate::ymd(paste0(dados$year, "-01-01"))

# CONFERINDO ...
dplyr::glimpse(dados)
## Rows: 5,586
## Columns: 7
## $ country    <fct> "Afghanistan", "Afghanistan", "Afghanistan", "Afghanistan",…
## $ iso2c      <fct> AF, AF, AF, AF, AF, AF, AF, AF, AF, AF, AF, AF, AF, AF, AF,…
## $ iso3c      <fct> AFG, AFG, AFG, AFG, AFG, AFG, AFG, AFG, AFG, AFG, AFG, AFG,…
## $ year       <date> 2000-01-01, 2001-01-01, 2002-01-01, 2003-01-01, 2004-01-01…
## $ pib        <dbl> 308.3183, 277.1181, 338.1400, 346.0716, 338.6373, 363.6401,…
## $ vida       <dbl> 55.00500, 55.51100, 56.22500, 57.17100, 57.81000, 58.24700,…
## $ desemprego <dbl> 7.897000, 7.973000, 7.867000, 7.844000, 7.794000, 7.878000,…
# TESTANDO A PRESENÇA DE NAs

summary(dados$pib)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##     233    1709    5134   14100   17775  185583     237
summary(dados$vida)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   14.66   64.80   71.77   70.22   76.70   86.15      21
summary(dados$desemprego)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.100   4.164   6.356   7.854   9.993  37.320     651
# NOTE A PRESENÇA DE NAS NO OUTPUT QUE SEGUE

Uma possibilidade de tratamento pode-se ser via do critério do intervalo interquartil (IQR), considerando como observações extremas os valores situados abaixo de Q1 − 1,5 * IQR ou acima de Q3 + 1,5 * IQR. O método do IQR é robusto a distribuições não normais e reduz a influência desproporcional de valores extremos sobre medidas de associação, como coeficientes de correlação, contribuindo para maior estabilidade estatística dos resultados.

# VAMOS IGNORAR OS VALORES AUSENTES, TRATAMENTO VIA LIMPEZA POR IQR

remove_outliers_iqr <- function(x) {
  q1 <- quantile(x, 0.25, na.rm = TRUE)
  q3 <- quantile(x, 0.75, na.rm = TRUE)
  iqr <- q3 - q1
  
  x >= (q1 - 1.5 * iqr) & x <= (q3 + 1.5 * iqr)
}

dados_sem_outliers <- dados %>%
  filter(
    remove_outliers_iqr(pib),
    remove_outliers_iqr(vida),
    remove_outliers_iqr(desemprego)
  )
# OBSERVANDO A PRESENÇA DE NAs

summary(dados_sem_outliers$pib)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     233    1382    3922    8391   10022   41798
sd(dados_sem_outliers$pib)
## [1] 10461.52
summary(dados_sem_outliers$vida)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   47.03   63.32   70.54   69.03   75.05   85.50
sd(dados_sem_outliers$vida)
## [1] 8.150504
summary(dados_sem_outliers$desemprego)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.119   4.085   6.224   6.985   9.189  18.724
sd(dados_sem_outliers$desemprego)
## [1] 3.956368
# OUTRA POSSIBILIDADE É IMPUTAÇÃO DOS DADOS 
# VIA COMPORTAMENTO DE ESTATÍSTICAS DESCRITIVAS

dados_imputados <- dados %>%
  mutate(
    bienio = year(year) - (year(year) %% 2)
  ) %>%
  group_by(bienio) %>%
  mutate(
    pib = if_else(
      is.na(pib),
      mean(pib, na.rm = TRUE),
      pib
    ),
    vida = if_else(
      is.na(vida),
      mean(vida, na.rm = TRUE),
      vida
    ),
    desemprego = if_else(
      is.na(desemprego),
      mean(desemprego, na.rm = TRUE),
      desemprego
    )
  ) %>%
  ungroup() %>%
  select(-bienio)
# TESTANDO A PRESENÇA DE NAs

summary(dados_imputados$pib)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     233    1823    5640   14082   16443  185583
sd(dados_imputados$pib)
## [1] 20469.92
summary(dados_imputados$vida)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.66   64.84   71.76   70.22   76.68   86.15
sd(dados_imputados$vida)
## [1] 8.68277
summary(dados_imputados$desemprego)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.100   4.438   7.127   7.854   9.211  37.320
sd(dados_imputados$desemprego)
## [1] 5.170459

Correlação

Na inferência estatística é útil idenficiar se existe relação entre duas ou mais variáveis. Assim, em muitos problemas existem duas ou mais variáveis (de natureza quantitativa) que são relacionadas, e tem-se o interesse em estudar e explorar essa relação.

Então, quando se quer verificar se há relação entre duas variáveis, pede-se um diagrama de dispersão. Onde mantém-se o esquema previamente já falado: \(Y\) é a variável dependente e \(X_i\) é a variável independente ou também chamada de covariável. Assim, o padrão determinado pelos pontos no diagrama sugere se existe ou não relação entre variáveis. Para tanto, o coeficiente de correlação linear de Pearson é uma ferramenta estatística que serve para medir o quanto duas variáveis “caminham juntas” e qual a força dessa união, variando sempre entre os valores -1 e 1. Na prática, o cálculo compara a variação conjunta das duas variáveis (a covariância) com a variação individual de cada uma (os desvios), funcionando como um termômetro que indica se existe um padrão de linha reta na relação entre esses dados, permitindo entender de forma simples e direta se dois fenômenos estão conectados matematicamente. As equações abaixo demonstram algebricamente o Coeficiente de Correlação de Pearson.

\[r = \frac{Cov(X, Y)}{\sqrt{S^2_x S^2_y}}\]

em que

\[S^2_x = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2\]

\[S^2_y = \frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \bar{Y})^2\]

\[Cov(X, Y) = \frac{1}{n-1} \left[ \sum_{i=1}^{n} X_i Y_i - n \bar{X} \bar{Y} \right]\]

Assim, esse coeficiente de correlação denotado por \(r\), deve-se assumir somente um valor entre -1 e +1. O que em se \(r\) = +1 existe correlação perfeita e positiva entre as variáveis, se \(r\) = -1 existe correlação perfeita e negativa entre as variáveis e se \(r\) = 0 não existe correlação entre as variáveis.

# PACOTE PARA ANÁLISE DE CORRELAÇÃO
pacman::p_load(corrplot)

Correlação de Pearson

# PARA EXERCUTAR NO R A CORRELAÇÃO DE PEARSON. USA-SE:
cov(x, y)
cor(x, y)


# QUANDO APROXIMA-SE DE ZERO, RECOMENDA-SE O USO DE UM TESTE DE HIPOTESES
cor.test(x, y)

Quais são os pressupostos da Correlação de Pearson? Normalidade via Teste Shapiro-Wilk, presença de Outliers e relação linear entre as variáveis

# TESTE DE NORMALIDADE
# TESTE DE HIPÓTESES

# ONDE A HIPOTESE NULA (H0) É QUE OS DADOS SEGUEM A DISTRIBUIÇÃO NORMAL 
# (PARA VALORES MAIORES QUE 5% NO P-VALUE)
# E A HIPOTESE ALTERNATIVA (H1) É QUE A DISTRIBUIÇÃO É DIFERENTE DA NORMAL 
# (PARA VALORES MENORES QUE 5% NO P-VALUE)

shapiro.test(dados_sem_outliers$pib)
## 
##  Shapiro-Wilk normality test
## 
## data:  dados_sem_outliers$pib
## W = 0.72967, p-value < 2.2e-16
shapiro.test(dados_sem_outliers$vida)
## 
##  Shapiro-Wilk normality test
## 
## data:  dados_sem_outliers$vida
## W = 0.96596, p-value < 2.2e-16
shapiro.test(dados_sem_outliers$desemprego)
## 
##  Shapiro-Wilk normality test
## 
## data:  dados_sem_outliers$desemprego
## W = 0.95039, p-value < 2.2e-16
# NENHUMA DAS ALTERNATIVAS ACIMA TÊM DISTRIBUIÇÃO NORMAL

Presuposto: Ausência de outliers

PIB

boxplot(dados_sem_outliers$pib)

Expectativa de vida

boxplot(dados_sem_outliers$vida)

Desemprego

boxplot(dados_sem_outliers$desemprego)

Pressuposto: Relação linear entre variáveis

Arranjo 1

plot(dados_sem_outliers$vida, dados_sem_outliers$pib)

Arranjo 2

plot(dados_sem_outliers$vida, dados_sem_outliers$desemprego)

Arranjo 3

plot(dados_sem_outliers$desemprego, dados_sem_outliers$pib)

Correlação de Spearman

Correlação de Kendall

Presuposto de multicolinearidade: notas sobre alta dimensionalidade e teste de VIF

Redução de dimensionalidade: Análise de Componentes Principais

Redução de dimensionalidade: Análise Fatorial

Análise dos resíduos: a diagnose do modelo

Homocedasticidade

Normalidade da distribuição dos resíduos

teste de shapiro

Outliers, pontos de alavancagem e distância de Cook

Generalized Linear Models (GLMs)

Referências


MIT License